Wiki

Clone wiki

BMCr / tf-idf evaluation

Ähnlichkeitsanalyse

Um dem Nutzer Vorschläge auf Basis seiner eingegebenen Werte zu geben, sollen die einzelnen Felder der bereits gespeicherten Lean Canvases auf Ähnlichkeit verglichen werden.

Für den Vergleich von Texten gibt es bereits Algorithmen, einer davon ist tf-idf . Dieser wird vom Projektteam anhand bereits gecrawlter Lean Canvas auf Nutzbarkeit im BMCr Umfeld evaluiert. Dafür wurden sowohl ein tf-idf npm-Package in die bisherige Applikation eingebaut als auch gensim (eine freie Python Bibliothek zur Ähnlichkeitsanalyse) installiert.

Bevor eine Aussage über tf-idf treffen zu können, müssen die bisher gesammelten Daten vorbereitet werden. Dazu sind folgende Schritte notwendig: * Bereinigen der einzelnen Canvas-Felder um sogenannte "Stop-Words" * Synonyme für die bereinigten Wörter finden * "Stemmen" der bereinigten Wörter sowie deren Synonyme

Bereinigung

Lean Canvases werden in natürlicher Sprache (natural language) ausgefüllt. Durch die natürlichsprachliche Ausdrucksweise sind auch Wörter enthalten, die den Sinn der getroffenen Aussage nicht beeinflußen. Diese sogenannten "Stop Words" werden herausgefiltert, um Schein-Ähnlichkeiten zwischen zwei Canvas zu vermeiden (z.B. wenn in zwei Canvas nur die Wörter "und" sowie "oder" gemeinsam haben). Für die Bereinigung wird das npm-Package node-stopwords-filter verwendet.

Synonyme

Die gespeicherten Lean Canvases entsprechen keinem einheitlichen Schreibstil. Um die Unschärfe der vielen Autoren zu verringern, werden zu den Wörter der gespeicherten Canvas Synonyme gesucht und abgespeichert. Mit diesen Synonymen können die weiteren Vergleiche vollzogen werden.

Stemming

In der natürlichen Sprache kommen Wörter in unterschiedlichen Formen vor (z.B. durch verschiedene Zeiten, Deklination). Um dieses Problem zu vereinfachen, wird das Word-Stemming verwendet. Dabei werden die gespeicherten Wörter auf ihre Grundform bzw. den Wortstamm gebracht und gespeichert. Im späteren Prozess werden so Wörter mit gleichem Wortstamm als gleich behandelt und die zugehörigen Canvases weisen eine höhere Ähnlichkeit auf.

Evaluation TF-IDF

Erste Untersuchungen haben gezeigt, dass Tf-idf für die Identifizierung von ähnlichen Canvases geeignet ist. Im Test wurden ein Test-String mit den Problem-Karten der in der Datenbank hinterlegten leanCanvases verglichen. Die angezeigten ähnlichen Canvases waren auch semantisch ähnlich. Trotz der geringen Datenmenge ist TF-IDF folglich für die Identifizierung von ähnlichen Canvases geeignet. In einem gemeinsamen Meeting am 19.12.2016 entschied das Projektteam auf dieser Basis, dass die Methode tf-idf für das vorliegende Problem ein geeigneter Vergleichsalgorithmus ist. Dieser wird entsprechend weiterverfolgt.

Updated